{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "用unstructured读取pdf文件，并提取表格"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "This function will be deprecated in a future release and `unstructured` will simply use the DEFAULT_MODEL from `unstructured_inference.model.base` to set default model name\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "项目 股本 一、上年期末余额 593,718,564.00 加：会计政策变 更 前期差错更 正 同一控制下 企业合并 其他 二、本年期初余额 593,718,564.00 三、本期增减变动金 额（减少以“－”号填 列） （一）综合收益总额 （二）所有者投入和 减少资本 1．所有者投入的普通 股 2．其他权益工具持有 者投入资本 3．股份支付计入所有 者权益的金额 4．其他 其他权益工具 优 先 股 永 续 债 其 他 资本公 积 751,246,676.86 751,246,676.86 -39,683,075.69 6,691,136.98 6,691,136.98 2022 年度 归属于母公司所有者权益 减：库 存股 其他综合 收益 专项 储备 盈余公 积 82,145,274.15 -26,873,547.89 73,664,602.84 82,145,274.15 -26,873,547.89 73,664,602.84 -74,969,932.15 -3,105,220.32 3,390,969.21 -12,602,729.17 一般 风险 准备 未分配利 润 其 他 小计 少数股东 权益 所有者权益 合计 867,106,782.40 2,176,717,804.06 4,397,818.45 2,181,115,622.51 867,106,782.40 2,176,717,804.06 4,397,818.45 2,181,115,622.51 20,340,059.67 55,912,665.02 -349,246.31 55,563,418.71 62,318,270.28 49,715,541.11 -1,299,246.31 48,416,294.80 6,691,136.98 950,000.00 7,641,136.98 950,000.00 950,000.00 6,691,136.98 6,691,136.98\n",
      "<table><thead><th></th><th rowspan=\"3\">a</th><th colspan=\"12\">归 属 于 母 公 司 所 有 者 权 益</th><th rowspan=\"3\">权 益</th><th rowspan=\"3\">| 合 计 咤</th></thead><thead><th></th><th></th><th colspan=\"2\" rowspan=\"2\">股 本</th><th colspan=\"2\">他 工 具 —</th><th rowspan=\"2\">资 本 公 TAZ 积</th><th rowspan=\"2\">减 : 库 息 : 存 股</th><th rowspan=\"2\">其 综 合 ‖ 专 hea 益 储</th><th rowspan=\"2\">项 | 盗 余 公 纳 朱 公 积</th><th rowspan=\"2\">a 心 寥L璧</th><th rowspan=\"2\">未 分 配 利 7 润</th><th rowspan=\"2\">‖ 其 3 ih</th><th rowspan=\"2\">、 Ait</th><th></th><th></th></thead><thead><th></th><th></th><th colspan=\"2\"></th><th>优 永 ge | we 股 | 债</th><th>7 | 目</th><th></th><th></th><th></th><th></th><th></th><th></th><th></th><th></th><th></th><th></th></thead><tr><td>一 、</td><td>上 年 期 未 余 频</td><td>593,718</td><td>564,00</td><td></td><td></td><td>751,246676.86 |</td><td>8214527415</td><td>268035408)</td><td>73,664, 600.84</td><td></td><td>867,106,782.40</td><td></td><td>2067I780406</td><td>| 4397,81845 |</td><td>218111562251</td></tr><tr><td colspan=\"16\">| 加 : 会 计 政 策 变 更</td></tr><tr><td colspan=\"16\">前 期 差 错 更 正</td></tr><tr><td colspan=\"16\">同 一 控 制 下 企 业 合 并</td></tr><tr><td colspan=\"16\">其 他</td></tr><tr><td>二</td><td>、 本 年 期 初 余 额</td><td>593,718</td><td>564,00</td><td></td><td></td><td>751,246676.86 |</td><td>8214527415 |</td><td>268035408)</td><td>73,664, 600.84</td><td></td><td>867,106,782.40</td><td></td><td>2067I780406</td><td>| 4397,81845 |</td><td>218111562251</td></tr><tr><td>三 频 ( 列 )</td><td>、 本 期 增 减 变 动 金 减 少 以 * 一 “ 号 填</td><td></td><td></td><td></td><td></td><td>-39,683,075.69</td><td>| -74,969930.15 |</td><td>-3,105,20032</td><td>3390,969.21</td><td></td><td>203M005967</td><td></td><td>559D6600</td><td>| 3924631</td><td>55563418.11</td></tr><tr><td>(</td><td>一 综 合 收 益 总 额</td><td></td><td></td><td></td><td></td><td></td><td></td><td>-12,602,729.17</td><td></td><td></td><td>62318270.28</td><td></td><td>497154111</td><td>| -129924631</td><td>48,416.294,80</td></tr><tr><td>= KA</td><td>n wee OL</td><td></td><td></td><td></td><td></td><td>6,691,136.98</td><td></td><td></td><td></td><td></td><td></td><td></td><td>6,691,136.98</td><td>950,000.00</td><td>7641,136.98</td></tr><tr><td>【 i</td><td>yeti 江</td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td></td><td>950,000.00</td><td>90,000.00</td></tr><tr><td colspan=\"16\">2. 其 他 权 益 工 具 持 有 者 投 入 资 本</td></tr><tr><td>董戛…真</td><td>/ 计 计 ′f又董」]荃′【董〈靠昼〕鼻画萼 入 所 有</td><td></td><td></td><td></td><td></td><td>6,691,136.98</td><td></td><td></td><td></td><td></td><td></td><td></td><td>6,691,136.98</td><td></td><td>6,691,136.98</td></tr></table>\n"
     ]
    }
   ],
   "source": [
    "from dotenv import load_dotenv; load_dotenv()\n",
    "from unstructured.partition.pdf import partition_pdf\n",
    "\n",
    "fname = \"../佳讯飞鸿：2022年年度报告/佳讯飞鸿：2022年年度报告_107-113.pdf\"\n",
    "\n",
    "elements = partition_pdf(filename=fname,\n",
    "                         infer_table_structure=True,\n",
    "                         strategy='hi_res',\n",
    "                         languages=['chi_sim', 'eng']\n",
    "           )\n",
    "\n",
    "tables = [el for el in elements if el.category == \"Table\"]\n",
    "\n",
    "print(tables[0].text)\n",
    "print(tables[0].metadata.text_as_html)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": ".venv",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.11"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
